1
Введение в глубокое обучение с подкреплением (DRL)
EvoClass-AI003Lecture 9
00:00

Введение в глубокое обучение с подкреплением (DRL)

Глубокое обучение с подкреплением (DRL) объединяет высокоразмерные возможности представления глубоких нейронных сетей с оптимальной рамочной основой обучения с подкреплением. В отличие от обучения с учителем или без учителя, DRL агенты учатся через пробу и ошибку во взаимодействии с динамической средой, принимая последовательные решения без немедленных, явных меток. Это интеграция позволяет агентам напрямую обрабатывать сложные, необработанные данные (например, пиксельные данные).

1. Парадигма обучения DRL

Агент обучения с подкреплением работает в непрерывном цикле: наблюдая за средой Состояние ($S_t$), выполняя действие Действие ($A_t$), и получая потенциально разреженный или задержанный скалярный вознаграждение ($R_{t+1}$). Основная проблема — это задача распределения кредита: определение, какие предыдущие действия ответственны за будущий сигнал вознаграждения.

2. Цель оптимизации

Конечная цель — найти оптимальную стратегию, или политику ($\pi^*$), которая представляет собой отображение из состояний в действия, максимизирующее ожидаемый суммарный дисконтированный доход ($G_t$). Дисконт-фактор ($\gamma \in [0, 1]$) имеет математическое значение, определяя, насколько мы ценим немедленные награды по сравнению с наградами, ожидаемыми в отдалённом будущем.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$
Question 1
How does the DRL agent receive feedback from the environment?
Explicit labels/targets
Backpropagation through time
Scalar reward signal
Labeled demonstration data
Question 2
What does the policy ($\pi$) mathematically represent?
The predicted total reward
A distribution over actions given a state
The probability of transitioning to a new state
The error between predicted and actual returns
Challenge: The Discount Factor
Analyzing the Temporal Horizon.
Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.
Step 1
How does the choice of $\gamma$ affect the policy's horizon?
Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.